spark的优化

您所在的位置：网站首页 › spark groupbykey数据倾斜 › spark的优化

spark的优化

2023-07-15 12:45| 来源: 网络整理| 查看: 265

1.避免创建重复的RDD; 2.尽可能使用同一个RDD 3.对多次使用的RDD进行持久化 4.尽量避免使用shuffle类算子 5.使用map-side预聚合的shuffle操作 6.使用高性能的算子 7.广播大变量 8.使用Kryo优化序列化性能: java Kryo 9.优化数据结构：对象，字符串，集合都比较占用内存字符串代替对象数组代替集合使用原始类型（比如Int、Long）替代字符串优化数据结构 10.资源调优 11.spark调优数据倾斜调优：map filter

数据倾斜的概念：一批数据中相同key的数据过多而导致其他reducetask跑完，而一个reducetask迟迟跑不完，甚至触发OOM的现象，称为数据倾斜。

解决：

1、使用Hive ETL预处理数据 2、过滤少数导致倾斜的key 3、提高shuffle操作的并行度 4、两阶段聚合（局部聚合+全局聚合） 5、将reduce join转为map join 6、采样倾斜key并分拆join操作 7、使用随机前缀和扩容RDD进行join 8、多种方案组合使用

【本文地址】

spark的优化

spark的优化

今日新闻

推荐新闻